Contents
Brief Introduction of Deep Learning (L7)
大致講解 Deep learning,詳細可參考之前筆記 Deep and Structured L1~L2 。
Introduction
主要如同前面 Logistic Regression 一樣可歸納成三個步驟:
- Define a set of function
- Goodness of function
- Pick the best function
Step 1: Define a set of function
model 的樣子就像是把很多 neuron 連接在一起成 neural network。
而給出其 network structure 也就定義出它的 function set 。
我們把所有的參數,也就是每個 neuron 的 weights 和 bias 合稱為 $\theta$。
這邊的連接方法為 Fully connected ,兩 layer 間的 neurons 兩兩相連。
Feedforward 則是它傳遞訊息的方式從 input 到 output 是單向的。
(input 、 output 都是 vector)
我們通常會用矩陣來運算:
而對於中間的 hidden layers 就像是在做 feature extractor(提取) ,用來取代之前要對 feature 所做的各種處理或轉換,
最後一層 hidden layers 所產生的 $x$ 就像是新的一組 feature 。
而 output layer 則像是 Multi-class Classifier ,使用 Softmax function ,讓 output 介於 0~1 。
以手寫辨識的例子來看:
最後 output 所代表的就是 此張圖片是某個數字的機率(ex. $y_1$ 為 此圖是 1 的機率)。
Step 2: Goodness of function
同樣用手寫辨識來看,這張圖是 1 ,所以它的 target vector 其中的 $\hat{y_1}$ 是 1 ,其餘是 0 。
接著利用 Cross Entropy 計算這個 function 的好壞。
而我們的資料當然不只一筆,所以就把每筆資料算出來的 C 相加,這就是我們的 Loss function 。
Step 3: Pick the best function
找個最好的 function ,方法也就是前面章節所講過的 Gradient Descent。